最新文章
当年只有30人在训练AGI:Anthropic预训练负责人访谈的万字实录,曾经的AI实验室都是通才,现在大家都是专才
2025-10-09

当年只有30人在训练AGI:Anthropic预训练负责人访谈的万字实录,曾经的AI实验室都是通才,现在大家都是专才

Y Combinator合伙人Ankit Gupta与Anthropic预训练负责人Nick Joseph最近进行了一次深度对话。

土耳其AI如何识破聊天机器人的“胡说八道“?伊斯坦布尔Newmind AI团队首创检测系统

土耳其AI如何识破聊天机器人的“胡说八道“?伊斯坦布尔Newmind AI团队首创检测系统

土耳其伊斯坦布尔Newmind AI团队开发出首个专门针对土耳其语的AI幻觉检测系统Turk-LettuceDetect,能够逐字识别AI生成内容中的虚假信息。该系统使用三种不同的AI模型,在包含17790个样本的数据集上训练,最佳模型达到72.66%的检测准确率。这项研究填补了土耳其语AI安全检测的空白,为8000万土耳其语使用者提供了更可靠的AI交互体验。

PEC 2025 AI创新者大会年度提问:新工作时代:AI工作流由谁主导?

PEC

2025-10-09

PEC 2025 AI创新者大会年度提问:新工作时代:AI工作流由谁主导?

9月13日的PEC 2025 AI创新者大会暨第二届提示工程峰会上,“年度提问二:新工作时代:AI工作流由谁主导?”从企业实践到技术实现、从业务落地到战略决策,展开了一场高密度的思想碰撞与经验分享,将AI工作流背后的难题和解决路径彻底揭开。

法国团队打造“推理核心“:让AI像数学家一样思考的训练场

法国团队打造“推理核心“:让AI像数学家一样思考的训练场

法国研究团队开发了"推理核心"训练环境,专门培养AI的基础推理能力。该系统包含18个核心任务,涵盖逻辑推理、规划、因果分析等领域,能无限生成新题目并精确控制难度。与传统依赖固定题库的方法不同,推理核心专注于培养通用认知能力,并使用专业工具验证答案。GPT-5测试显示任务具有挑战性,为AI推理能力发展开辟新路径。

PEC 2025 AI创新者大会年度对话:新创意时代,AI如何定义“第十艺术”?

PEC

2025-10-09

PEC 2025 AI创新者大会年度对话:新创意时代,AI如何定义“第十艺术”?

在9月13日召开的“PEC 2025 AI创新者大会暨第二届提示工程峰会”上,一场主题为“新创意时代,AI如何定义‘第十艺术’?”的圆桌对话引发了热烈讨论。至顶AI实验室联合主理人路飞携六位数字艺术家与AI创业者,围绕AI在艺术中的角色、价值与未来展开了一场深度对谈。

阿里巴巴Qwen团队打造史上最强多模态AI:一个模型搞定文字、语音、图像和视频,实时对话延迟仅234毫秒

阿里巴巴Qwen团队打造史上最强多模态AI:一个模型搞定文字、语音、图像和视频,实时对话延迟仅234毫秒

阿里巴巴Qwen团队发布的Qwen3-Omni实现了AI领域的重大突破,首次让单一模型在文字、语音、图像、视频处理上都达到专业水平,无任何性能损失。该系统支持119种文字语言,实时对话延迟仅234毫秒,在36项测试中32项达到开源最佳。采用创新的"思考者-表达者"架构和多码本流式生成技术,为真正智能的多模态AI助手奠定了基础。

OpenAI发布Sora 2模型并推出视频社交应用挑战TikTok

OpenAI发布Sora 2模型并推出视频社交应用挑战TikTok

OpenAI发布了音视频生成模型Sora 2,同时推出配套社交应用Sora,用户可生成包含自己的视频并在类似TikTok的信息流中分享。Sora 2在物理定律遵循方面有显著改进,视频更加真实。应用提供"客串"功能,允许用户将自己植入生成场景中,并可与朋友分享形象使用权限。该iOS应用目前在美加地区采用邀请制,ChatGPT Pro用户可直接体验。

字节跳动发布ByteWrist:让机器人手腕像人手一样灵活的革命性设计

字节跳动发布ByteWrist:让机器人手腕像人手一样灵活的革命性设计

字节跳动研究团队开发出革命性的ByteWrist并联机器人手腕,采用三层嵌套驱动机制和弧形连接杆设计,体积比传统手腕减少40%,承载能力提高60%。在狭窄空间操作测试中,搭载ByteWrist的机器人比传统Kinova机器人快一倍,成功完成116小时的衣物整理数据收集,展现出卓越的灵活性和拟人化特征,为家庭服务、医疗和精密制造等领域提供了新的解决方案。

大语言模型已遭遇瓶颈,是时候重新定义智能了吗?

大语言模型已遭遇瓶颈,是时候重新定义智能了吗?

大语言模型和生成式AI自诞生以来问题频发,从推理模型表现不佳到AI幻觉现象,再到版权诉讼,这些都表明当前技术路径可能并非通往真正智能的正确道路。专家认为,仅靠增加数据和算力的扩展模式已显现边际效应递减,无法实现通用人工智能。研究者提出智能应包含统计、结构、推理和目标四个层次的协调,并强调时间因果性的重要性。面对LLM技术局限,业界开始探索神经符号AI等替代方案。

Scale AI团队推出SWE-Bench Pro:AI编程助手能否胜任真正的企业级软件开发挑战?

Scale AI团队推出SWE-Bench Pro:AI编程助手能否胜任真正的企业级软件开发挑战?

Scale AI团队推出SWE-Bench Pro测试平台,专门评估AI编程助手在真实企业级软件开发中的表现。研究发现,即使是最先进的GPT-5和Claude模型,成功率也仅有23%左右,远低于在传统测试中70%的表现。该测试平台包含1865个来自真实企业的复杂编程任务,要求修改多个文件和大量代码,为AI编程能力提供了更严格的现实检验。

微软推出智能体模式,让办公软件变身“氛围工作“助手

微软推出智能体模式,让办公软件变身“氛围工作“助手

微软发布Microsoft 365新功能,知识工作者可通过文本提示生成复杂的Word文档或Excel电子表格。该功能包含两个产品:基于GPT-5的代理模式和基于Anthropic模型的Office代理。代理模式能进行多步骤工作规划和验证循环,目前仅支持Web版本。微软将此称为"氛围办公",类似于氛围编程概念。不过在电子表格应用中存在风险,代理模式准确率为57.2%,而人类为71.3%,需要谨慎使用。

图像编辑智能评分员:微软团队开发AI助手彻底改变图像修改质量评估

图像编辑智能评分员:微软团队开发AI助手彻底改变图像修改质量评估

微软团队开发的EdiVal-Agent是首个针对AI图像编辑的自动化评估系统,能像专业评委一样从指令遵循、内容一致性和视觉质量三维度评分。该系统与人类评审一致性达81.3%,测试发现Nano Banana表现最均衡,GPT-Image-1指令遵循最佳但一致性不足,大多数模型在数量变化任务中成功率低于25%。

邮件订阅